查看原文
其他

Sora一夜刷屏!OpenAI发布首个视频生成模型(附演示视频)

科创中国
2024-09-15


美国开放人工智能研究中心OpenAI,15日发布了首个视频生成模型Sora,该模型可通过接收文本指令,生成相应的视频。



据美国开放人工智能研究中心官网介绍,该公司正在努力让人工智能“理解和模拟处在运动当中的物理世界”。此次发布的文字转视频模型可以依据用户输入的指令,生成一段时长可达1分钟的视频。也能获取现有的静态图像并从中生成视频,还能获取现有视频,进行扩展或填充缺失内容。



据介绍,该模型能够生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。目前的模型仍然存在缺陷,例如,它可能难以精确模拟复杂场景的物理状况,也可能无法理解一些特定的因果和时间联系等。此外,模型还可能混淆一些文本指令中的空间细节,例如左右方向等。



相关领域专家将对模型展开测试,目前,该模型只向有限数量的创作者提供访问权限。
当前,多家公司,包括科技巨头谷歌和初创公司Runway等,都在积极开发文生视频的人工智能项目。然而,OpenAI强调,Sora的突出之处在于其图像的真实感,这在竞争对手的产品中尚未看到。更令人惊讶的是,Sora能够生成比其他模型更长的视频片段,最长可达一分钟。
纽约大学助理教授谢赛宁直言,“Sora将改写整个视频生成领域”。谢赛宁分析,Sora应该是建立在DiT这个扩散Transformer之上;在视频压缩网络上可能采用VAE架构,区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数,并表示,“Sora或许并不需要人们想象中的那么多GPU来训练,如果真是如此,Sora的后期迭代将会非常快。”
英伟达人工智能研究院首席研究科学家Jim Fan认为,Sora是一个数据驱动的物理引擎,称这是视频生成领域的GPT-3时刻,“回到2020年,GPT-3不是一个很完美的模型,但是它有力证明了上下文学习的重要性,所以不要纠结于GPT-3的缺陷,多想想后面的GPT-4。”
特斯拉CEO埃隆·马斯克在社交媒体回应评论时写道:“gg人类”。“gg”是网络游戏中的常用缩写,通常用于游戏结束后,双方玩家互相致意。然而,此时此刻马斯克的回应“gg人类”则被解读为一种自嘲和自我调侃,表达了对OpenAI技术超越人类的认可。


360创始人周鸿祎也发布微博,提到自己对Sora的看法。在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。
周鸿祎直言,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的不远了,不是10年、20年的问题,可能一两年很快就可以实现。”



:央视财经、新民晚报、腾讯科技、微博

继续滑动看下一个
科创中国
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存